通过未计算的数据情况和缺乏本领域缺乏标准基准的动机,我们补充了我们以前的努力,并提出了一个专为培训和评估文本无关的多通道扬声器验证系统的全面语料库。还可以容易地用于DERE失去,去噪和语音增强的实验。我们通过利用VOXECEB数据集的清洁部分顶部的数据仿真来解决缺乏多通道训练数据的缺乏问题。开发和评估试验基于复杂的传统的声音,这些声音在复杂的环境环境(声音)语料库中,我们修改以提供多渠道试验。我们发布从公共来源创建数据集的完整食谱作为Multisv语料库,我们提供了两种多通道扬声器验证系统,其中两个多通道扬声器验证系统,基于神经网络的波束成形,基于预测理想二进制掩码或更新的CONV-TASNet更新。
translated by 谷歌翻译
在典型的多讲话者语音识别系统中,基于神经网络的声学模型预测每个扬声器的Senone状态后部。这些稍后被单通讲话者解码器用来分别在每个扬声器特定的输出流上应用。在这项工作中,我们认为这样的计划是次优的,并提出一个原理的解决方案,该原则解决方案共同解码所有发言人。我们修改了声学模型以预测所有扬声器的联合状态后索,使网络能够表达对扬声器的零件归属的不确定性。我们采用联合解码器,可以与更高级别的语言信息一起使用这种不确定性。为此,我们在早期多讲话者语音识别系统中重新访问阶乘生成模型中使用的解码算法。与这些早期作品相比,我们用DNN替换GMM声学模型,提供更大的建模电力并简化了推理的一部分。我们展示了在混合Tidigits DataSet上对概念实验证明的关节解码的优势。
translated by 谷歌翻译
This paper describes several improvements to a new method for signal decomposition that we recently formulated under the name of Differentiable Dictionary Search (DDS). The fundamental idea of DDS is to exploit a class of powerful deep invertible density estimators called normalizing flows, to model the dictionary in a linear decomposition method such as NMF, effectively creating a bijection between the space of dictionary elements and the associated probability space, allowing a differentiable search through the dictionary space, guided by the estimated densities. As the initial formulation was a proof of concept with some practical limitations, we will present several steps towards making it scalable, hoping to improve both the computational complexity of the method and its signal decomposition capabilities. As a testbed for experimental evaluation, we choose the task of frame-level piano transcription, where the signal is to be decomposed into sources whose activity is attributed to individual piano notes. To highlight the impact of improved non-linear modelling of sources, we compare variants of our method to a linear overcomplete NMF baseline. Experimental results will show that even in the absence of additional constraints, our models produce increasingly sparse and precise decompositions, according to two pertinent evaluation measures.
translated by 谷歌翻译
We introduce a novel way to incorporate prior information into (semi-) supervised non-negative matrix factorization, which we call differentiable dictionary search. It enables general, highly flexible and principled modelling of mixtures where non-linear sources are linearly mixed. We study its behavior on an audio decomposition task, and conduct an extensive, highly controlled study of its modelling capabilities.
translated by 谷歌翻译
本文介绍了独立的神经颂歌(Snode),这是一种连续深入的神经模型,能够描述完整的深神经网络。这使用了一种新型的非线性结合梯度(NCG)下降优化方案,用于训练,在该方案中可以合并Sobolev梯度以提高模型权重的平滑度。我们还提出了神经敏感性问题的一般表述,并显示了它在NCG训练中的使用方式。灵敏度分析提供了整个网络中不确定性传播的可靠度量,可用于研究模型鲁棒性并产生对抗性攻击。我们的评估表明,与Resnet模型相比,我们的新型配方会提高鲁棒性和性能,并且为设计和开发机器学习的新机会提供了改善的解释性。
translated by 谷歌翻译
自动机器人系统需要尽可能稳健,并且通常在具有相对高的精度和可重复性的同时稳定。虽然基于深度学习的方法正在成为如何接近3D扫描和图像处理任务的研究标准,但处理此数据的行业标准仍然是基于分析的。我们的论文声称,用于测试,更新和维护,分析方法较强,更难以稳健。本文重点介绍了3D扫描箱6D姿态估计的特定任务。因此,我们介绍了由具有精确注释的结构化光扫描仪捕获的合成数据和实际扫描组成的高质量数据集。此外,我们提出了两种不同的方法对于6D箱姿势估计,分析方法作为工业标准和基线数据驱动方法。两种方法都是交叉评估的,我们的实验表明,通过合成数据增加了实际扫描的培训,提高了我们所提出的数据驱动神经模型。该位置纸是初步的,因为所提出的方法受过训练和评估我们计划在将来扩展的相对较小的初始数据集。
translated by 谷歌翻译